2024-AIII-[NPN]Adaptive Integration of Partial Label Learning and Negative Learning for Enhanced Noisy Label Learning

https://arxiv.org/abs/2312.09505

Introduction

以下のようなものを提案した。

データに対して、Noisy Labelが与えられたとする。

それをCandidate LabelやComplementary Labelにうまく変換させる。

Noisy Labelについては省略。
Partial Label Learningでは、「平均ベースの統計的知識を使う」、「明らかにわかるようなサンプルのラベルを明確にする」の2つである。
- 前者は学習の中で、すべてのラベル候補を同じ重みとして扱う。
- 後者は真のラベルという潜在変数を考え、各サンプルごとにあるConfidence Scoreというのを推定する。
Negative Learning　補ラベルを用いた学習といえる。

Method

問題設定

データは $x_n \in \mathbb{R}^d$ 。
与えられるPartial Labelは $y_i \in [0, 1]^C$ である。
真のラベルは $y_i^*$ である。
目標は以下のようにsoftmax関数 $p^c$ で訓練させた損失の最小化。

実装の際、one hotベクトルの要領で、Partial Label LearningとComplementary Label Learningはmulti-hotベクトルとして実装される。

確かに先行研究 📄2018-NIPS-[GCE]Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels などでは生のCross Entropyを使うと、Noisyなデータに弱いという事実があった。

この研究では、Cross Entropy Lossを使ったとしても、Partial Label LearningとNegative Learningを組み合わせることで、Cross Entropyでもいい性能が出るようにしたい。

ラベル空間の分解

Self-supervised Learningは誤ったPseudo Labelの付与による悪影響は避けられない。

なので、NoisyなラベルをうまくPartial LabelとComplementary Labelに分解したい。

与えられているNoisyなラベル $y_n$ について、サンプルに対して最も正しそうな予測複数個 $\hat{y}_n$ を選び、これらはそれぞれone-hotラベルなので、以下のようにtwo-hotラベルになる。これをPartial Labelとして扱う。

Y_n = y_n + \hat{y}_n

そして、Complemental Labelを以下のように生成する。つまり、 $Y_n$ のbit反転。

\tilde{Y}_n = \mathbf{1} - Y_n

このとき、Partial Labelには絶対に正しいのを含みたいが、Complementary Labelには正しいのを含ませたくない。この時、逆にPartial Labelは厳しく選びComplementary Labelは雑に選ぶという倒錯が起きる。

この手法の理論的な裏付けとして、Noisy Labelの予測のtop-kに正解が入っているかを見てみると結構入っている(top 2だけでも全然違う)

Partial Label Learningにおける曖昧性の解消

Partial Label Learningの手法として、ラベルの曖昧さを解消するというものがある。これを受けてこの論文では、hard曖昧性解消とsoft曖昧性解消の手法を考える。

$S_n^t$ を $n$ 番目のデータについての、 $t$ 回目の学習時のラベル分布だとする。初期分布は与えられたNoisyかもしれない $y_n$ を使い、更新は今時点でのPartial Label(識別器の出力したラベル候補のtop-k)の $Y_n^t$ を用いて更新する。

$S_n^t$ の中で最も大きい成分を持つものが最終的な識別器の予測結果になる。

$\tilde{y}_n$ は $S_n^t$ から考えられる正解ラベルであり、hard, softは以下のように定義される。

これに従い、Hard LabelとSoft Labelの損失も以下のように定義する。基本的に $S_n^t$ をreweightingしながらのクロスエントロピー損失である。

ウォームアップしている。
1. Noisy Labelのまま学習する。
ウォームアップが終わったら。
1. 識別器の予測top-kのもので、Partial Labelを生成。
2. そのPartial Labelに基づくComplementary Labelを生成。
3. 今のエポックのラベル分布 $S_n^t$ を更新。
4. 損失を計算する。

考察

Complemental LabelはNegative Loss。📄2023-NIPS-Active Negative Loss Functions for Learning with Noisy Labels 。この論文と似ていて面白い。

どちらもActive LossとNegative Lossを同時に利用していることでノイズに強いことを実現。

実験

CIFAR100Nを使用。ノイズは対称ノイズ、非対称ノイズを使う。
Real Noisy Dataとして、Web-Aircraft, Web-Car, WebBirdを使用。

NPN-hardのほうが大体よかった。

あとAblation Studyでは、Negative Label Learningは強力だった。

Sen(Qian)’s Memo